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一 种 面向 表情 识别 的 ROI pessi — 2g SR IL C 


文 元 美 ， 欧 阳 文 ， 凌 永 权 
(广东 工业 大 学 信息 工程 学 院 , 广州 510006) 


摘 要 : 针对 如 何 更 有 效 地 使 用 卷 积 神 经 网 络 从 训练 图 像 中 学 习 到 的 分 布 式 特征 进行 研究 ， 提 出 了 一 种 面向 人 脸 表情 
识别 的 ROI 区 域 二 级 投票 机 制 。 首 先 将 图 像 划分 成 一 系列 感 兴趣 区 域 (ROD 图 像 输 入 到 卷 积 神 经 网 络 中 进行 训练 ; 
然后 将 测试 图 像 的 ROI 图 像 输 入 到 着 积 神经 网 络 中 , 统计 所 有 ROI 图 像 的 判别 结果 ; 最 后 采用 二 级 投票 机 制 确 定 测试 
图 像 的 最 终 类 别 ， 得 到 最 终 判 别 结果 。 此 外 ， 针 对 卷 积 神经 网 络 不 能 从 人 脸 图 像 中 学 习 到 旋转 等 空间 位 置信 息 ， 引 入 
了 STN(spatial transformer network) 网 络 ， 提 高 算法 在 解决 复杂 情况 下 的 表情 识别 问题 的 能 力 。 实 验 表明 ，ROI 区 域 二 
级 投票 机 制 能 够 更 有 效 地 使 用 卷 积 神 经 网 络 从 训练 图 像 中 学 习 到 的 分 布 式 特征 ， 比 直接 使 用 ROI 图 像 进行 投票 的 方法 
准确 率 提 升 了 1.1%， 引 入 STN 网 络 能 够 有 效 提升 卷 积 神经 网 络 的 便 棒 性 ， 比 未 引入 STN 网 络 的 方法 准确 率 提 升 了 
1.596. 
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Expression-oriented ROI region secondary voting mechanism 


Wen Yuanmei, Ouyang Wen, Ling Yongquan 
(School of Information Engineering Guangdong University of Technology, Guangzhou 510006, China) 


Abstract: Aiming at the problem of how to more efficiently use the distributed features that convolutional neural network have 
learned from training images, this paper proposed a ROl(regions of interest) region secondary voting mechanism for facial 
expression recognition. Firstly, it divided into the image a series of ROI images, and input it into the convolutional neural 
network for training. Then, it input into the ROI images of the test image the convolutional neural network, getting all ROI 
images’ results. Lastly, it used the secondary voting mechanism to determine the final category of test image. In addition, aiming 
at the problem of convolutional neural network cannot learn spatial position information such as rotation, this paper introduced 
the STN (spatial transformer network) to make convolutional neural network useful in complex condition. Experiments show 
the ROI region secondary voting mechanism can more effectively use the distributed features which learned by convolutional 
neural network, compared with the method of voting directly using ROI images, the accuracy is increased by 1.1%. The 
introduction of STN can effectively improve the robustness of convolutional neural network, compared with non-introduced 
STN networks, the accuracy is increased by 1.596. 
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从 Krizhevsky 等 人 四 利用 卷 积 神经 网 络 在 ILSVRC-2012 
像 识 别 竞赛 取得 比 手工 特征 更 好 的 效果 ， 卷 积 神经 网 络 引 起 

人 脸 表 情 是 由 人 眼睛 、 鼻 子 、 嘴 巴 、 眉 毛 等 处 的 肌肉 形变 了 广泛 的 关注 ， 学 者 们 对 基于 卷 积 神经 网 络 的 表情 识别 进行 了 
产生 的 , 是 人 类 情感 交流 最 有 力 、 最 自然 、 最 直接 的 手段 之 一 ， 一 系列 的 探索 与 分 析 B59, 比 如 Hamester 等 人 中 提出 了 一 种 由 标 
能 够 正确 反映 人 当前 所 处 的 状态 。 人 脸 表 情 识别 能 让 计算 机 识 — TE CNN 通道 与 CAE 通道 构成 的 双 通 道 卷 积 神经 网 络 用 于 表情 
别人 的 表情 ， 并 根据 表情 所 反映 的 信息 为 人 类 提供 更 人 性 化 的 识别 ;Liu 等 人 外 将 卷 积 神经 网 络 提取 的 特征 与 手工 提取 的 CBP 


0 引言 


7H 


服务 , EZERA ANGULAR HL. JU v sv Ae 73 BUG] ZMH, 特征 (centralized binary patterns) 相 结合 , 使 用 SVM 分 类 器 进 
因此 成 为 计算 机 视觉 的 研究 热点 之 一 上 3 引 。 分 类 ; Meng 等 人 外 在 卷 积 神经 网 络 中 提取 的 表情 特征 中 融合 
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图 像 ， 分 别 记 为 ROI4、ROI5; 翻转 处 理 考虑 了 拍摄 的 角度 不 
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E, 将 图 像 进行 水 平 翻转 , 得 到 一 幅 ROI RR, i173 ROIG; 4 
心 聚焦 去 除 头 发 等 噪声 对 表情 的 影响 ， 聚 焦 人 脸 表 情 的 重点 区 
域 ， 得 到 一 幅 ROI 图 像 ， 记 为 ROI7。 处 理 得 到 的 8 幅 ROI 图 
像 加 上 初始 图 像 ( 记 为 ROI8) 一 共 得 到 9 幅 ROI 图 像 ，9 幅 ROI 


图 像 如 图 1 所 示 。 
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1 ROI 区 域 图 像 

通常 ， 中 性 表情 的 眼睛 、 嘴 巴 、 自 子 等 部 位 没有 特别 变化 ; 

高 兴 表 情 有 具有 的 特征 为 嘴角 张大 或 者 上 扬 、 眼 睛 变 细 、 鼻 咽 上 
翘 ， 悲 伤 表情 具有 的 特征 为 眉毛 眼角 向 下 倾 、 嘴 巴 张大 或 者 路 
角 向 下 ; 愤怒 表情 具有 的 特征 为 眉毛 上 竖 、 嘴 角 下 扣 、 眉 头 紧 
锁 、 盘 孔 上 翘 ， 有 时 伴随 着 嘴巴 张 开 ， 惊讶 表情 具有 的 特征 为 
张大 路、 瞪 大 眼 ， 同 时 眉毛 上 扬 。 但 是 每 种 表情 都 具有 一 定 幅 
值 ， 不 同 幅 值 表情 的 表达 形式 也 会 不 一 样 。 例 如 有 时 表达 高 兴 
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来 ， 此 部 分 ROI 图 像 与 惊讶 表情 的 在 嘴巴 处 的 ROI 图 像 相似 
度 比 较 高 ， 因 此 若 直 接 对 此 ROI 图像 进行 判别 ， 容 易 将 此 处 的 
ROI 图 像 误 判 为 惊讶 。 因 此 ， 在 投票 判决 时 ， 应 适当 减少 包含 
局 部 信息 的 ROI 图 像 对 最 终结 果 的 影响 , 提升 具有 全 局 信息 的 
ROI 图 像 对 最 终 判别 结果 的 影响 。 
本 文 受 决策 树 多 级 决策 思想 的 启发 ,提出 了 二 级 投票 机 制 。 
对 于 决策 树 来 说 ， 通 常 采用 信息 增益 来 进行 划分 属性 的 选择 ， 
信息 增益 计算 方法 为 
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其 中 : DD 为 样本 集 ; V 表示 样本 具有 的 某 一 属性 。 信 息 增 益 越 
大 ， 该 属性 的 影响 越 大 ， 则 优先 采用 该 属性 设置 节点 。 因 此 ， 
本 文 为 了 提升 具有 全 局 信息 的 ROI 图 像 在 判别 时 的 影响 力 , D 
具有 全 局 信息 的 ROI 图 像 设 置 了 判别 节点 ,假设 V 为 表 
小 其 中 ie[0, 各 ,Wj 为 W 中 第 j 幅 ROI 图 像 ， je[0,8]， 
Wi, WoW 中 具有 全 局 信息 的 ROI 图 像 ， 卷 积 神经 网 络 对 


Wa. Wa 的 判别 结果 为 VW 、Vs， 卷 积 神经 网 络 对 W 中 所 有 图 
像 的 判别 结果 为 了 7， 经 本 文 提 出 方法 辅助 判别 后 输出 的 结果 为 
OO， 因此 ， 本 文 提出 的 方法 为 : 

Input: 1 

Output : O 

if V, - V, 

O <- Va 
else 


C«- frequent (V s... in range(1)) 
t< -max (C) 


O< — find (t corresponding to V, ) 
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在 划分 的 9 个 ROI 区 域 图 像 中 , ROIG 5 ROIS 包含 了 完整 
的 表情 信息 ， 因 此 ， 在 利用 ROI 图 像 进 行 投票 时 ， 提 高 ROIG 
与 ROIS 对 判别 结果 的 影响 力 ， 同 时 降低 其 他 ROI 图 像 对 判别 
结果 的 影响 .因此 , 本文 提出 的 二 级 辅助 判别 的 具体 步骤 如 下 : 

a) 将 测试 图 像 划 分 为 一 系列 ROI 区 域 图 像 。 


b) 将 划分 得 到 的 ROI 图 像 输 入 到 训练 好 的 卷 积 神经 网 络 中 ， 


统计 每 一 个 ROI 图 像 的 判别 结果 。 
c) 比 较 判 断 ROIG 与 ROI 的 判别 结果 是 否 一 致 。 若 一 致 ， 
则 将 ROI6 与 ROIS 的 判别 结果 归并 为 测试 图 像 的 判别 结 
不 一 致 ， 则 利用 ROI-KNN 方法 进行 投票 ， 选 取 票 数 最 多 的 
果 在 线 归 并 为 测试 图 像 结 果 
1.2 旋转 不 变性 研究 
在 实际 应 用 中 ， 人 脸 图 像 通常 会 有 一 定 旋转 角度 ， 且 拍摄 
的 人 脸 图 像 也 会 有 拍摄 角度 的 远近 之 分 。 因 此 ， 提 高 系统 对 旋 
转 、 缩 放 图 像 的 处 理 能 力 ， 可 以 进一步 提升 系统 的 实用 性 。 
针对 卷 积 神经 网 络 不 能 学 习 图 像 的 空间 信息 如 旋转 、 缩 放 
等 问题 。 本 文 在 原 卷 积 神经 网 络 结构 的 基础 上 ， 引 入 了 STN 
网 络 用 来 解决 模型 不 具有 旋转 不 变性 的 问题 。 
STN 网 络 由 谷歌 Jaderberg 55 AU” F 2015 EEE. STN 网 
络 由 Localisation Network, Grid generator、Sampler3 个 模块 组 
成 ，STN 网 络 结构 如 图 2 所 示 : 


IR] 


Grid 


| Generator 
| e fID ^ 
| M 
y P | EP 
Ni e | R 
E d NW |— 
Suxler.] 
图 2 STN 网 络 结构 
本 文 使 用 STN 网 络 学 习 表 情 图 像 的 位 置信 息 的 过 程 包含 
前 向 传播 与 反 向 调整 两 个 阶段 。 
前 向 传播 过 程 为 : 
a) 将 表情 图 像 输 入 Localisation Network 中 ， 经 过 全 连接 层 
输出 变换 参数 09， 假设 得 到 的 0 为 


O= b 0, 0, | 
9, 0, 0, 
b) 将 得 到 的 变换 参数 0 输入 到 Grid generator 模块 中 ， 在 此 
模块 中 得 到 生成 图 像 与 原 图 像 坐 标 对 应 关系 有 。 此 过 程 如 下 


所 示 : 
X; 
:| [8,8, e 
"P |= 12 13 y = T(G,) 
zi a 0s 65] 


Kup. Gd, yD 为 生成 网 格 的 坐标 ， (x5, yS) 原 图 像 的 坐标 。 
o) 利 用 得 到 的 坐标 对 应 关系 进行 插值 ， 将 原 图 像 坐标 中 的 
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像素 值 依照 得 到 的 坐标 对 应 关系 在 生成 网 格 中 进行 双 线 性 插值 ， 
得 到 生成 图 像 。 公 式 表达 如 下 : 


= YY max (0, 1 一 |x; 一 m|) max (0, 1 一 lr Es nl) 
d) 将 插值 得 到 的 生成 图 像 输 入 到 卷 积 神经 网 络 中 进行 特征 


学 习 。 
反 向 传播 过 程 为 
计算 < ， 使 得 误差 能 够 经 STN 网 络 之 后 继续 向 前 传 


播 。 计 算 公 式 如 下 : 


w -$$ max(o1 -x -m|)max(0,1-|y; -| 


假设 卷 积 神经 网 络 第 一 层 输出 的 误差 为 10ss , 经 STN 层 输 
出 误差 为 previous ， 因 此 STN 中 误差 反 向 传播 的 过 程 为 


Oloss ^ Óloss 。 avs " OUS, 
previous ƏVF  OU,, Oprevious 
0 OV Ma ROSE V. R 
0 计算 二 与 可 太 ， 使 得 能 够 通过 人 反 向 调整 变换 变换 


oE suae 
公式 如 下 ， = 与 一 一 计算 过 程 相似 。 
Oy; Ox 


i 


n 
S420. — 


0, |o- x| >1 
ave 


ox: 中 站 max (0,1 - |x; - n|) max (0.1 - A EU l, m > x 


-l, m< x} 


>H 


JE, STN 中 网 络 中 参数 9 反 向 调整 过 程 为 
avs 95 
evt Ox; 00 
00 oV. Oy’ 
Oy; 00 


2 实验 


为 了 验证 本 文 提出 的 ROI 区 域 二 级 投票 机 制 的 有 效 性 以 及 
引入 STN 是 否 能 够 使 模型 具有 旋转 不 变性 ， 本 文 就 采用 本 文 
提出 的 方法 ( 记 为 Ours+CNN) 与 ROI-KNN 方法 ( 记 为 ROI- 
KNN+CNN) 以 及 直接 对 图 像 分 类 的 方法 ( 记 为 ROIHCNN) 进行 
了 对 比 实验 。 同 时 在 具有 旋转 的 样本 情况 下 ， 对 在 卷 积 神经 网 
络 中 引入 STN 网 络 与 未 引入 STN 网 络 进行 了 对 比 实验 。 

2.1 实验 样本 选取 及 评价 指标 

本 文 使 用 的 数据 集 是 孙 晓 等 人 "采集 的 混合 CK 数据 集 与 
互联 网 采集 的 wid 面部 表情 数据 形成 的 新 的 数据 集 ， 该 数据 
EUA CK+(Extended CohnKanade ) ”数据 集中 的 高 尖 、 莫 伤 、 
惊讶 、 愤 怒 各 700 张 混合 互联 网 下 载 的 上 述 各 种 表情 的 200 张 
Wild 图 像 ， 以 及 900 张 实验 室 状 态 下 的 中 性 图 像 。 共 5 类， 每 
类 900 张 ， 一 共有 4 500 张 图 像 。 测 试 集 由 互联 网 采集 除 中 性 
外 其 他 类 别 的 各 300 张 混合 300 张 实验 室 状 态 的 中 性 图 像 ， 共 


5 类 1 500 张 图 像 ， 称 为 数据 集 I。 在 数据 集 工 的 基础 上 ， 孙 了 晓 
等 人 "对 数据 集 I 中 的 每 张 图 像 通过 切割 、 翻 转 、 谈 盖 、 中 心 


201805.00435v1 


" 
E 


IV 


naX 


i 


录用 稿 


聚焦 处 理 后 得 到 9 张 ROI 


x, "un 


1 所 示 ， 共 5 类， 每 类 4 


500 张 图 像 ， 测 试图 像 不 做 变化 ， 称 为 数据 集 工 。 为 了 研究 注 
入 旋转 样本 能 否 使 系统 具有 旋转 不 变性 ， 孙 晓 等 人 ”对 数据 


得 到 5 类 共 


算 公 式 如 下 : 


2.2 ” 卷 积 神经 网 络 结构 及 参数 设置 
本 文采 用 的 卷 积 
积 神经 网 络 ， 包 括 了 


pa 


着 工 包含 的 正规 数据 进行 旋转 生成 采样 ， 
片 ， 称 为 数据 身 
集 开 与 数据 集 II 进行 实验 。 

本 文 实验 采用 准确 


与 数据 集 IL AIRES. 
JI。 本 文采 用 了 数据 


TL 


率 Caccuracy) 作为 评价 指标 ， 准 确 率 计 


Accuracy = ( - 


样本 分 类 错误 总 数 
样本 总 数 


James 


申 经 网 络 结构 参考 文献 [11]， 采 用 9 层 卷 
3 个 卷 积 层 、3 个 最 大 池 化 层 、1 个 全 连 


助 判别 三 个 环节 组 成 。 
在 卷 积 神经 网 络 的 训练 阶段 ， 首先 将 划分 好 的 ROI 图 像 按 
照 下 式 进行 归 一 化 ， 将 归 一 化 之 后 的 图 像 输 入 到 卷 积 神经 网 络 
中 进行 训练 ， 得 到 训练 好 的 卷 积 神经 网 络 模型 。 式 中 : 
train. image 是 归 一 化 之 后 的 图 像 ，image 是 原始 图 像 。 
train_image = (image —(255/ 2.0))/255 
在 ROI 图 像 测试 阶段 , 首先 测试 图 像 的 ROI 图 像 进行 归 
化 ， 然 后 将 归 一 化 之 后 的 图 像 输入 到 训练 好 的 卷 积 神经 网 络 当 
中 ， 统 计 测 试图 像 的 ROI 图像 的 判别 结果 。 
在 最 终 判 别 阶段 , 利用 本 文 提 出 的 方法 对 ROI 图 像 测试 阶 
段 统计 得 到 的 结果 进行 处 理 ， 得 到 最 终 的 判别 结果 。 
2.3.2 旋转 不 变性 研究 实验 步骤 
本 文采 用 数据 集 II 进行 旋转 不 变性 的 研究 。 首 先 将 数据 


接 层 、1 个 dropout""JZ. 1 个 softmax 层 。 网 络 结构 如 表 1 所 E III 输入 到 卷 积 神经 网 络 当 中 进行 训练 ， 训 练 完 成 之 后 将 测 

示 试 数据 集 输入 到 训练 好 的 网 络 当 中 ， 记 录 测 试 的 准确 率 。 
本 文采 用 的 卷 积 神经 网 络 结构 接 下 来 在 卷 积 神经 网 络 的 第 一 层 中 引入 STN 网 络 ， 同 样 
层 数 类 型 输出 特征 图 EART WRT 将 数据 集 II 输入 到 引入 了 STN 的 卷 积 神经 网 络 当 中 进行 训练 ， 
0 Input 32*32*1 训练 完成 之 后 将 测试 图 像 输入 到 训练 好 的 网 络 当 中 ， 记 录 测 试 

1 Convl 30*30*64 3*3 的 准确 率 。 
2 Pooll 15*15*64 2*2 
3 Conv2 12*12*64 4*4 3 。 实验 结果 与 分 析 
4 Pool2 6*6*64 2*2 3.1 ROI 辅助 判别 实验 结果 与 分 析 
5 Conv3 2*2*128 5*5 为 验证 本 文 方法 的 有 效 性 ， 将 本 文 提出 的 方法 与 ROI- 
6 Pool3 1*1*128 KNN 方法 以 及 利用 ROI. 图 像 进 行 数据 增强 的 方法 进行 对 比 实 
7 Full 1*1*300 仿 ， 实 验 结果 如 表 2 所 示 。 
8 Droput 1*1*300 表 2 不 同 辅助 判别 方法 准确 率 对 比 

9 Softmax 1*1*5 方法 准确 率 

网 络 的 第 一 层 为 卷 积 层 ， 卷 积 核 大 小 为 3*3， 输 出 64 个 Ours-CNN 7896 

30*30 的 特征 图 ; 层 为 池 化 层 ， 池 化 核 大 小 为 2*2， 输 出 ROI-KNN+CNN 76.9% 

64 ^ 15*15 f ; 第 三 层 为 卷 积 层 ， 卷 积 核 大 小 为 4*4, ROI+CNN 73.2% 


输出 64 个 12*12 的 特征 图 ; 
2*2， 输 出 64 个 6*6 
为 5*5， 输 出 128 个 2*2 Wf 
大 小 为 2*2， 输 出 128 个 1*1 的 特征 图 ; 
输出 300 个 特征 值 ， 第 八 


层 为 softmax 


本 文 的 权 值 与 1 
标准 正 态 分 布 。 训 练 过 程 
本 ， 共 进行 50 000 次 随机 
0.09， 每 采样 5 000 次 验证 
或 下 降 时 ， 学 习 率 下 降 
0.000 1 时 不 再 变 
23 实验 步骤 
2.3.1 ROI 辅助 判别 实验 步骤 

本 文采 用 数据 集 YI 验 训 


实验 主要 由 卷 积 


sh s 


层 为 池 化 层 ， 池 化 核 大 小 为 


的 特征 


层 为 卷 积 层 ， 卷 积 核 大 小 


5L f 


T 征 图 ; 


第 六 层 为 池 化 层 ， 池 化 核 


由 表 2 可 知 ， 在 整体 准确 率 上 ， 采 用 本 文 提出 的 方法 进行 
人 脸 表 情 识 别 准确 率 达 到 78%， 比 ROI-KNN+CNN 方法 准确 
率 提高 了 1.1%， 比 ROI-CNN 方法 识别 准确 率 提高 了 4.8%. 


第 七 层 为 全 连接 层 ， 


层 为 概率 为 0.5 的 dropout 层 ; 第 九 


队 层 的 激活 函数 采用 
忆 置 的 初始 值 服从 均 


ReLu 函数 。 


值 为 0、 标准 差 为 0.1 的 


每 次 随机 从 样本 中 选取 100 个 样 


E. Ih 


学 习 率 为 0.01， 动 量 为 
E 过 程 中 发 现 准确 率 不 变 


个 数量 


E 本 文 提出 的 ROI 辅助 判别 方法 ， 


经 网 络 训练 、ROI 图 像 测试 以 及 ROI 区 域 有 


级 继续 训练 ， 学 习 率 下 降 到 


此 可 见 ， 本 文 提 出 的 方法 取得 了 最 好 的 效果 。 

为 了 分 析 本 文 方法 取得 最 好 效果 的 原因 ， 本 文 在 实验 中 引 
入 了 混 涌 矩阵 观察 每 个 类 别 的 分 类 情况 。Ours+CNN 方法 实验 
结果 的 混淆 矩阵 如 图 3 所 示 ，ROI-KNN+CNN 方法 实验 结果 的 
混淆 和 矩阵 如 图 4 所 示 ，ROIHCNN 方法 实验 结果 的 混淆 矩阵 如 
图 5 所 示 。 

混淆 矩阵 横 轴 为 预测 的 类 另 
左 到 右 依 次 是 中 性 、 高 兴 、 悲 伤 、 
值 表示 每 个 类 别 的 分 类 的 准确 率 。 

由 混 清 矩阵 可 知 ， 本 文 提出 的 方法 在 自然 、 高 兴 、 翡 伤 、 
惊讶 愤怒 表情 中 的 识别 准确 率 分 别 为 0.98、0.71、0.56、0.89、 
0.76; ROI-KNN+CNN 方法 在 上 述 表情 的 识别 准确 率 分 别 为 
0.98、0.69、0.54、0.88、0.75; ROF-CNN 法 在 上 述 表 情 的 识别 


c 


， 纵 轴 为 实际 类 别 。 和 矩阵 中 从 
惊讶 、 愤 怒 。 对 角 线 中 的 数 
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IL 


E 0f 3&4) 91] 7g 0.96. 0.66. 0.49. 0.83. 0.68. 方法 分 类 错误 的 样本 ， 如 图 6 所 示 ， 并 对 这 些 样本 的 ROI 图 像 
的 类 别 概率 分 布 进行 可 视 化 ， 如 表 3 所 示 。 由 于 情况 相同 ， 本 
文 以 图 6 以 及 图 6 对 应 的 类 别 概率 分 布 进行 分 析 。 


|; EBHKEHUUCHBIBEEH 


图 6 ROLKNN 错 分 样本 
表 3 ROI-KNN 错 分 样本 类 别 概率 分 布 

ROI 类 别 概率 分 布 

图 像 中 性 高 兴 悲伤 惊讶 愤怒 


0 0.000 0.000 0.100 0.900 0.000 


Happy 


Sad 


Index of True Classes 


Surprised 


Anger| 0.04 0.04 0.09 


1 0.749 0.245 0.005 0.002 0.000 


Neutral Happy Sad Surprised Anger 
Index of Predict Classes 2 0.000 0.002 0.118 0.855 0.024 


图 3 OurstCNN 3 0.002 0.561 0.131 0.307 0.000 


4 0.000 0.017 0.139 0.844 0.000 
Neutral 
5 0.000 0.629 0.357 0.013 0.000 


6 0.000 0.001 0.994 0.005 0.000 


Happy 
ri 0.839 0.149 0.009 0.000 0.002 


8 0.000 0.992 0.003 0.005 0.000 
3& 3 中 的 RO 图 像 分 别 对 应 于 图 6 中 从 左 到 右 的 图 像 。 对 
于 每 幅 图 像 ， 通 常 都 是 选取 类 别 概率 分 布 中 最 大 概率 值 对 应 的 
类 别 作 为 此 ROI 图 像 的 类 别 。 
表 3 中 ，ROI0、ROI2、ROI4 都 在 惊讶 的 表情 中 拥有 最 大 
概率 值 0.900、0.855、0.844， 因 此 有 3 幅 ROI 图 像 被 判别 为 惊 
nodi. ce Ed 讶 。 同 理 , ROI, ROIS, ROIS 在 高 兴 表 情 的 概率 分 别 为 0561、 
图 4 ROI-KNN+CNN 0.629、0.992， 在 各 类 别 概率 分 布 中 拥有 最 大 值 ， 因 此 这 3 d 
T ROI 图 像 被 判别 为 高 兴 , 出 现 了 多 幅 局 部 ROL 图 像 产 生 误 判 的 
os 情况 ， 此 时 导致 ROI-KNN 产生 误 判 。 将 图 像 划分 成 ROI 图 像 
i 后 ， 局 部 ROI 图 像 包含 的 信息 较 少 ， 这 些 包 含 局 部 信息 的 ROI 
a 图 像 与 其 他 表情 的 ROI 图 像 比较 相似 , 容易 将 ROT 图 像 判 断 为 
有 具 有 相似 ROIL 图 像 的 其 他 表情 。 当 某 测试 图 像 中 多 个 ROI 图 像 
被 误 判 为 具有 相似 ROI 图 像 的 其 他 表情 时 ， 容 易 出 现 误 判 的 
ROI 图 像 与 正确 判断 的 ROI 图 像 相 等 甚至 超过 正确 判断 的 ROI 
图 像 的 情况 , 使 得 ROI-KNN 方法 产生 误 判 。 而 本 文 提出 的 ROI 
区 域 二 级 投票 机 制 , 首先 将 两 幅 具 有 完整 信息 的 ROI 图 像 的 判 
断 结 果 进 行 比较 ， 当 结果 不 一 致 时 ， 再 采用 投票 机 制 ， 确 定 最 


Sad 


Index of True Classes 


Surprised| 0.02 0.03 


3 


Anger| 0.04 0.04 0.09 


Index of True Classes 


Surprised 


Anger| 0.04 0.09 


Ebo Wm mE 终 的 判决 结果 ， 此 时 可 以 在 一 定 程度 上 降低 包含 局 部 信息 的 
图 5 ROFCNN ROI 图 像 对 最 终 判 决 结果 的 影响 ， 因 此 取得 了 更 好 的 效果 。 
此 可 见 ， 本 文 提出 的 方法 与 ROI-KNN 方法 在 各 个 表情 另外 ， 由 于 ROIHCNN 对 图 像 进行 判别 时 只 需要 对 测试 图 
都 能 取得 比 ROIHCNN 更 高 的 准确 率 ,说 明 在 测试 阶段 引入 ROI ” 像 进行 一 次 判别 ， 而 本 文 与 ROLKNN 方法 都 需要 对 测试 图 像 


图 像 进行 辅助 判别 , 充分 使 用 网 络 从 ROI 图 像 中 学 习 到 的 信息 ， ”的 所 有 ROI 图 像 进行 判别 ， 所 以 需要 进行 9 次 判别 。 因 此 本 文 
能 有 效 地 提升 系统 对 表情 地 判别 能 力 。 对 于 本 文 提 出 的 方法 与 。 还 针对 引入 辅助 判别 是 否 会 增加 判别 时 间 进行 实验 .经 实验 得 ， 
ROI-KNN 方法 , 由 混淆 矩阵 可 知 , 本 文 提出 的 方法 与 ROI-KNN ”判别 1 500 张 图 像 ，ROI+CNN 方法 用 了 0.125 s， 引 入 辅助 判 
方法 在 各 表情 类 别 中 准确 率 相 接近 甚至 更 高 ,在 整体 准确 率 上 ， ” 别 方法 用 了 0.680 s。 可 见 ， 引 入 了 辅助 判别 仅 比 未 引入 辅助 判 
本 文 提出 的 方法 要 比 ROI-KNN 方法 准确 率 更 高 。 别 方法 多 了 0.555s, 但 是 准确 率 确 提 升 了 4.8%。 因 此 ， 本 文 提 

为 了 分 析 本 文 提出 方法 能 够 取得 比 ROI-KNN 卷 积 神经 网 。 出 方法 能 够 在 略微 增加 判决 时 间 的 前 提 下 ， 取 得 更 好 的 判别 结 
络 取得 更 好 效果 的 原因 ， 本 文 挑选 出 本 文 分 类 正确 、ROLKNN — 果 。 
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3.2 ”旋转 不 变性 研究 实验 结果 与 分 析 由 混淆 矩阵 可 知 ， 卷 积 神经 网 络 中 引入 STN 网 络 后 ， 在 
本 文 利 用 数据 集 II 设置 了 6 组 实验 ， 其 中 3 组 实验 引入 自然, 高兴、` 悲 伤 \ 惊 喜 、 愤 怒 五 种 情感 中 的 准确 率 分 别 为 0.98、 

了 STN，3 组 未 引入 STN。 实 验 结果 如 表 4 所 示 。 0.73、0.43、0.84、0.77， 而 卷 积 神经 网 络 中 未 引入 STN 时 在 上 

表 4 引入 STN 实验 结果 对 比 述 表 情 的 识别 准确 率 分 别 为 0.96、0.73、0.45、0.82、0.71。 由 

未 引入 STN 准确 率 引入 STN 准确 率 此 表明 , 在 注入 旋转 样本 的 前 提 下 ,引入 STN 网 络 在 大 部 分 表 

ROHCNN 73.594 ROI+ CNN 7596 情 中 都 能 比 未 引入 STN 网 络 获得 更 高 的 准确 率 , 说 明 在 卷 积 神 

Ours+CNN 76.796 Ours+ CNN 78.494 经 网 络 中 引入 STN 网 络 , 能 够 使 卷 积 神经 网 络 学 习 到 图 像 的 空 
ROLKNN4CNN 74.8% ROI-KNN+CNN 76.9% 间 信 息 , 使 得 卷 积 神经 网 络 能 够 获得 更 高 的 识别 准确 率 。 同 时 ， 
表 4 可知， 在 ROF-CNN 实验 中 ， 引 入 STN 网 络 进行 于 中 性 表情 是 处 于 实验 室 状态 下 的 图 像 ， 而 在 中 性 表情 中 引 

表情 识别 准确 率 达 75%， 比 未 引入 STN 网 络 的 识别 准确 率 提 ”入 STN 网 络 后 并 未 出 现 准 确 率 降 低 的 情况 ,所 以 说 明 引 入 STN 


高 了 1.5%; 在 Ours+CNN 实验 中 ， 引 入 STN 网 络 识别 准确 率 ”网 络 之 后 不 会 对 不 具有 旋转 角度 的 图 像 产生 不 良 影响 。 

ik 78.4%， 比 未 引入 STN 网 络 的 识别 准确 率 提高 了 1.7%。 在 另外 ， 由 于 本 文 在 卷 积 神经 网 络 的 第 一 层 引 入 了 STN 网 
ROI-KNN+CNN 实验 中 ， 引 入 STN 网 络 识别 准确 率 为 76.9%, 络 ， 相 较 于 未 引入 STN 网 络 的 卷 积 神经 网 络 增加 了 32 X32 xX 
比 未 引入 STN 网 络 准确 率 提升 了 2.1%。 因 此 ， 在 训练 样本 中 ”6=6144 个 连接 ， 所 以 本 文 还 针对 引入 STN 网 络 之 后 所 需要 的 
注入 了 旋转 样本 的 情况 下 , 引入 STN 网 络 能 够 提升 表情 识别 的 ”训练 时 间 进 行 实验 。 经 实验 得 , 引入 STN 网 络 所 需 训练 时 间 为 
准确 率 。 同 时 ， 由 在 未 引入 STN 网 络 以 及 引入 STN 情况 下 ， 1 383 s， 测 试 时 间 为 0.229 s， 而 未 引入 STN 所 需 训 练 时 间 为 
本 文 提出 的 三 级 投票 机 制 的 识别 准确 率 都 高 于 ROI-KNN 方 法， 928 s， 测 试 时 间 为 0.148 s， 由 此 可 见 ， 引 入 STN 网 络 比 未 引 
进一步 证 明了 本 文 提出 的 三 级 投票 机 制 的 有 效 性 。 入 STN 网 络 训练 时 间 多 了 455 s， 测 试 时 间 多 了 0.081 s。 由 此 
为 了 进一步 观察 在 表情 识别 任务 中 引入 STN 网 络 的 效果 ， ”可 见 ， 引入 STN 网 络 虽 然 增加 了 一 定 的 训练 时 间 , 但 是 测试 时 
本 文 引 入 了 混淆 矩阵 进行 观察 。 由 于 ROI+CNN 中 未 使 用 辅助 间 未 明显 增加 ,因此 ,引入 STN 网 络 能 够 在 几乎 未 增加 判决 时 
判别 方法 ， 所 以 以 ROI+CNN 中 引入 STN 网 络 与 未 引入 STN ” 间 的 基础 上 有 效 解决 表情 识别 任务 中 的 旋转 不 变性 问题 ， 从 而 
网 络 生成 的 混淆 矩阵 为 例 进行 分 析 。ROIHCNN 中 未 引入 STN ”满足 实时 处 理 的 需要 。 

网 络 实验 结果 的 混淆 矩阵 如 图 7 所 示 , 引入 STN 网 络 实验 结 

的 混淆 矩阵 如 图 8 所 示 。 


4 ”结束 语 


. 在 人 脸 表情 识别 任务 中 ， 为 了 充分 使 用 卷 积 神经 网 络 在 训 
i » 练 阶段 学 习 到 的 分 布 式 特征 , 并且 降低 由 于 局 部 ROI 图 像 包 含 
M I 信息 量 较 少 导致 的 误 判 对 最 终 判 别 结果 的 影响 ， 本 文 提 出 了 一 
3 os 种 二 级 投票 机 制 对 表情 图 像 进行 辅助 判别 方法 ， 并 将 本 文 提出 
f om z 的 方法 与 ROLKNN 方法 以 及 仅 在 训练 采用 ROT 图 像 进行 数据 
E ta 增强 的 方法 进行 比较 。 实 验 结果 表明 ， 本 文 提出 的 二 级 投票 机 
= surprised i 制 能 够 获得 更 好 的 效果 。 另 外 ， 本 文 还 对 如 何 让 卷 积 神经 网 络 
li 学 习 到 表情 图 像 的 空间 位 置信 息 进行 研究 , 将 STN 网 络 引入 到 
is j 表情 识别 任务 中 ， 使 卷 积 神经 网 络 具有 旋转 不 变性 ， 提 升 了 系 
Ree orpredet classes o n 统 的 鲁 棒 性 。 本 文 提出 的 方法 虽然 提升 了 表情 识别 的 准确 率 ， 
图 7 未 引入 STN 网 络 但 是 对 不 同 光 照 、 不 同 角 度 等 复杂 情况 下 的 表情 图 像 处 理 能 
还 不 够 强 ， 因 此 建立 一 个 能 在 复杂 情况 下 准确 识别 表情 的 表情 
ubl —  — a GB 识别 系统 将 是 下 一 步 的 研究 重点 。 
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